Search CORE

44 research outputs found

DNN-Based Source Enhancement to Increase Objective Sound Quality Assessment Score

Author: Kazunori Kobayashi
Kenta Niwa
Yoichi Haneda
Yuma Koizumi
Yusuke Hioka
Publication venue: 'Institute of Electrical and Electronics Engineers (IEEE)'
Publication date: 01/10/2018
Field of study

We propose a training method for deep neural network (DNN)-based source enhancement to increase objective sound quality assessment (OSQA) scores such as the perceptual evaluation of speech quality (PESQ). In many conventional studies, DNNs have been used as a mapping function to estimate time-frequency masks and trained to minimize an analytically tractable objective function such as the mean squared error (MSE). Since OSQA scores have been used widely for soundquality evaluation, constructing DNNs to increase OSQA scores would be better than using the minimum-MSE to create highquality output signals. However, since most OSQA scores are not analytically tractable, i.e., they are black boxes, the gradient of the objective function cannot be calculated by simply applying back-propagation. To calculate the gradient of the OSQA-based objective function, we formulated a DNN optimization scheme on the basis of black-box optimization, which is used for training a computer that plays a game. For a black-box-optimization scheme, we adopt the policy gradient method for calculating the gradient on the basis of a sampling algorithm. To simulate output signals using the sampling algorithm, DNNs are used to estimate the probability-density function of the output signals that maximize OSQA scores. The OSQA scores are calculated from the simulated output signals, and the DNNs are trained to increase the probability of generating the simulated output signals that achieve high OSQA scores. Through several experiments, we found that OSQA scores significantly increased by applying the proposed method, even though the MSE was not minimized

arXiv.org e-Print Archive

Creative Repository of Electro-Communications

深層学習に基づく音源情報推定のための確率論的目的関数の研究

Author: Yuma Koizumi
小泉悠馬
Publication venue
Publication date: 31/10/2017
Field of study

　本研究は，マイクロホンで観測した音響信号から，源信号や音源の種類や状態などの音に関係する情報である「音源情報」を推定する研究である．音源情報推定の題材として，源信号と雑音が重畳した観測信号から源信号を推定する「音源強調」と，観測信号に含まれる環境音の種類や状態を推定して周囲の危険を予測/察知する「異常音検知」に焦点を当てる．音源の種類や状態などの潜在的な音源情報を考慮しながら音源強調ができれば，大歓声に包まれたサッカースタジアムで，特定の選手の声やボールのキック音を推定でき，まるでサッカースタジアムに潜り込んだようなコンテンツ視聴の方法をユーザに提供可能になる．観測信号に含まれる環境音の種類や状態を推定する異常音検知が実現すれば，機器の動作音から，その機器の動作が正常か異常か（状態）を推定できるようになり，製造/保守業務の効率化ができる．　音源情報を推定するための手法として，統計的機械学習に基づくアプローチが研究されており，近年では深層学習を音源情報推定に適用することで，その推定精度が大きく向上している．深層学習に基づく音源情報推定では，ニューラルネットワークを観測信号から所望の音源情報への非線形写像関数として用いる．そしてニューラルネットワークを音源情報の推定精度を評価する「目的関数」の値を最大化/最小化するように求める．多くの深層学習において目的関数には，二乗誤差関数や交差エントロピー関数などの決定論的な目的関数が用いられる．　音源情報推定において目的関数の設計とは，所望の音源情報の性質や推定精度を定義することと等価である．音源情報の中は，決定論的な目的関数では音源情報の性質や推定精度を定義できないものや，もしくは定義することが妥当ではないものも存在する．例えば，人間の主観的な音質評価を最大化する源信号や，異常音（ラベルデータ）が収集できない音源の状態の推定のための目的関数には，決定論的な目的関数は採用できない．この問題を解決するためには，ネットワークの構造だけでなく，ニューラルネットワークの学習に用いる目的関数を高度化しなくてはならない．　本研究では，決定論的な関数で目的関数を設計できない音源情報を推定するために，深層学習に基づく音源情報推定のための目的関数の研究を行う．所望の音源情報の性質や推定精度を，推定したい音源情報の特性や解きたい問題に応じて入出力値がとるべき値の確率分布や集合として定義し，ニューラルネットワークの入出力が満たすべき統計的な性質を目的関数として記述するという着想からこの問題に取り組む．　3 章では，スポーツの競技音など，ラベルデータが十分に存在しない源信号を強調するための手法を提案する．少量の学習データでニューラルネットワークを学習するためには，事前に設計/選択した音響特徴量を観測信号から抽出し，小規模なニューラルネットワークで音源強調を行う必要がある．3 章では，所望の音源を強調するための適切な音響特徴量を，相互情報量最大化に基づき選択する方法を検討した．この際，特徴量候補の次元数が大きい音響特徴量選択に相互情報量を正確に計算する "カーネル次元圧縮法" を適用することを考え，スパース正則化法に基づく微分可能な目的関数を導出し，大量な音響特徴量候補から適切な音響特徴量を勾配法により選択できる音響特徴量選択法を提案した．定量評価試験では，従来の音響特徴量選択法と比べSDR が向上することを示し，また主観評価試験では，提案法を用いて音響特徴量を選択することで従来法と比べ源信号の明瞭性が向上することを示した．この成果により，これまで推定が困難とされていた，学習データが十分に得られないような源信号や，これまで源信号の推定対象とされてこず，適切な音響特徴量が未知な源信号も推定できるようになった．　4 章では，音源強調の出力音の主観品質を向上させるために，ラベルデータを一意に定めることができず，二乗誤差などの目的関数で推定精度を定義することが妥当でない源信号を強調するための手法を提案する．従来の深層学習に基づく音源強調では，源信号の振幅スペクトルなどをラベルデータとし，ニューラルネットワークの出力とラベルデータの二乗誤差を最小化するように学習をしてきた．このため，出力音に歪が生じて主観品質が低下するという問題があった．そこで4 章では，ラベルデータを用意する代わりに主観評価値と相関の高い音質評価値（聴感評点）を最大化するようための目的関数を提案した．定量評価試験では，提案する目的関数を利用することで，聴感評点を最大化するようにニューラルネットワークを学習できることを確認した．また主観評価試験では，提案法は従来の二乗誤差最小化に基づく目的関数を利用した音源強調よりも高い主観品質で音源強調できることを示した．この成果により，これまで音源強調の学習に利用できなかった聴感評点や人間の評価などの，より\高次" な評価尺度を目的関数として利用できるようになり，ニューラルネットワークを用いた音源強調の応用範囲を広げることができる．　5 章では，モーターの異常回転音やベアリングのぶつかり音などの普段発生しない音（異常音）を検知し，機器動作の状態が正常か異常かを判定することで機器の故障を検知する「異常音検知」の実現を目指す．この問題の難しさは，機器の故障頻度がきわめて低いため，機器の異常動作音（ラベルデータ）が収集できず，一般的な識別のためのニューラルネットワークの目的関数である交差エントロピーが利用できない点にある．そこで5 章では，正常音が従う確率分布と統計的に差異がある音を異常音と定義することで異常音検知を仮説検定とみなし，異常音検知器を最適化するための目的関数として，仮説検定の最適化基準であるネイマン・ピアソンの補題から"ネイマン・ピアソン指標" を導出した．定量評価試験では，従来法と比べ調和平均が向上したことから，提案法が従来法よりも安定して異常音検知できることを示した．また実環境実験では3D プリンタや送風ポンプの突発的な異常音や，ベアリングの傷などに起因する持続的な異常音を検知できることを示した．この成果により，異常音データの集まらない状態識別問題を安定的に解くことが可能になり，銃声検知や未知話者検出などのセキュリティのための音源情報推定技術など，負例データの収集が困難な様々な音源情報推定へと応用ができる．電気通信大学201

Creative Repository of Electro-Communications